분류 분석 (문단 편집)

== 소개 ==
分類分析
classification (analysis)

[[기계 학습|기계학습]] 분야에서 활용되는 [[통계적 방법|통계분석방법]] 중 하나로, [[통계학]]의 관점에서는 판별분석(discrimination analysis)으로서 이해될 수 있다. 분류 분석은 분석목적에 따라 두 가지의 의미를 갖는데, 첫째는 '''사전에 정의된 둘 이상의 집단의 차이를 분류할 수 있는 분류기'''(classifier)'''를 찾아내는 훈련의 방법'''을 말하며, 둘째는 이렇게 훈련을 거쳐 준비된 분류기를 활용하여 '''데이터 세트의 개별 관측값들이 어느 집단에 속하게 될지를 결정하는 방법'''을 말한다. 여기서 중요한 것은 각 '집단' 이 이미 분석가에게는 명확히 혹은 잠정적으로 알려져 있다는 것이다. 따라서 분석가는 컴퓨터가 열심히 분류 분석을 해 놓으면 그 결과를 '답안지' 를 통해 채점한다고도 볼 수 있다. 이것을 [[데이터 마이닝]] 용어로는 교사학습 또는 '''지도학습'''(supervised learning)이라고 한다.

[[데이터과학]]에 있어 분류 분석은 정형 데이터(structured data)를 활용한 [[데이터 마이닝]]의 대표주자이자 첫 관문이라고도 할 수 있다. 즉, 가장 기초적인 형태의 분류 분석은, 고정된 필드로서 존재하고 데이터끼리 연산이 가능한 성질의 데이터를 분석대상으로 한다. 기존에 훈련된 과거 데이터를 바탕으로 규칙을 만들고, 그 결과물인 분류모델을 활용해서 새로운 데이터의 분류결과를 찾는다는 점에서 예측적 모델링(predictive modelling)으로 보기도 하지만, 이는 주로 [[군집 분석]]과 같은 기술적(descriptive)인 모델링이나 [[구조방정식]]과 같은 설명적(explanatory)인 모델링에 대비시키기 위함이다. 사실 좁은 의미에서 예측적이라고 하면 데이터가 이산적이지 않고 연속적일 때를 말한다. 즉 "[[회귀분석|얘 공부하는 데이터를 보니 수학성적이 몇 점이나 될까?]]" 같은 질문에 답하는 것이 예측적 모델링인데, 분류 분석은 단지 "우등반일까 열등반일까?" 정도의 질문에만 답하는 모델링이다.

이런 류의 데이터 마이닝이 그렇듯이 분류 분석은 먼저 분류기를 '''훈련'''(training)시키고 그 후에 '''검증'''(validating) 및 '''테스트'''(testing)하는 과정을 거쳐서 활용된다. 대체로 데이터의 절반 이상을 떼어내서 훈련용으로 쓰고, 나머지는 검증하고 테스트하는 데 쓴다. 그만큼 훈련용 데이터가 중요하다고 할 수 있는데, 양질의 훈련용 데이터가 있어야 현장에서 테스트를 하더라도 믿을 만한 분류기가 되기 때문이다. 비유하자면, 학교에서 시험을 치를 때 선배들을 통해 얻은 '[[족보]]' 를 통해 공부하면 좋은 성적이 나오는 이유도 시험이라는 테스트에 있어서 그 족보가 양질의 훈련용 데이터이기 때문이다. 그러나 족보 위주로 외워서 그 지식을 자기 것으로 만들었다고 보장할 수는 없다. 이는 시험이라는 훈련용 데이터가 실무적 지식 혹은 학문적 사고방식이라는 또 다른 테스트와 괴리되어 있을수록 심해진다. 기껏 훈련을 했는데 문제유형에만 최적화되는 데 그치는 것이다. [[TOEIC]] 900점대 중에서도 실전영어는 한 마디도 못 하는 사람들이 수두룩함을 생각해 보자. 의외로 이런 생각거리들은 [[기계 학습]]이라는 분야에서의 중요한 이슈들을 여럿 건드리고 있다.

현장에서는 훈련용 데이터가 가능한 한 현장의 테스트 데이터에 가까워지도록 여러 방법들을 시도하고 있다. 전체 데이터로부터 훈련용 데이터를 확률적으로 무작위 추출하는 '''홀드아웃'''(holdout), 전체 데이터를 10개로 나누고 이로부터 서로 다른 9개의 훈련용 데이터를 취하는 '''10중 교차검증'''(10-fold cross validation) 등이 대표적이다. 그 외에도 [[부트스트랩]](bootstrap) 등의 재표집(resampling)도 쓸 수 있고, 능형회귀분석(ridge regression) 등 과도한 학습결과에 대해 자체적으로 페널티를 주는 방법도 있으며, 혹은 단순히 훈련이 지나치게 길어지지 않도록 적당한 기준만 충족하면 잽싸게 훈련을 종료하고 업데이트하는 방법도 자주 쓰인다. 이 모든 것은 '''분류기가 자신이 훈련받은 내용에 대해서 지나치게 '[[과몰입]]' 하지 않도록 유연함을 유지시키는 것'''을 목적으로 고안된 것이다.

그렇다면 분류 분석을 통해 만들어진 분류기가 훈련용 데이터에만 '과몰입' 한다는 상황은 어떤 상황인가? 다시 인간의 학습에 대충 비유하자면, [[수능]]으로 [[고등학생|3년간 성실히 훈련받은]] 학생들이 명문대에 진학했어도 고등교육에 필요한 사고방식을 체득하기는커녕 [[대학수학능력시험/논쟁|'출제자의 의도' 를 찾아내기 위해 오답부터 소거하는 테크닉]]만 익혀버린 상황인 셈이다. 기계도 종종 비슷한 상황에 처한다. 모든 훈련용 데이터는 그 데이터만이 갖는 특징이 있는데, 훈련을 시키다 보니 그만 '그 데이터만의 아무래도 좋을 특징' 까지 고스란히 학습해 버리는 것이다. 그래서 현장에서의 테스트 데이터가 훈련 데이터와 조금만 달라져도 분류기는 민감하게 반응하게 된다. 이것을 '''과(대)적합'''(overfitting) '''문제'''라고 부른다. 과적합이 우려되는 분류기는 그 분류모델의 알고리즘이 쓸데없이 복잡해져 있는 경우가 많다.

과적합과 관련하여 언급할 만한 중요한 현상 중 하나는, 훈련용 데이터를 분류기가 과잉 학습할수록 그 학습의 결과는 점점 훈련용 데이터의 특징을 닮아가지만 그 반대급부로 '''훈련용 데이터에 따라 변동성이 커지고 불안정해진다'''는 것이다. 이것을 [[통계학]] 용어인 '''편의'''(bias)와 '''분산'''(variance)의 두 개념으로 설명해 보자. [[양궁]]에 비유하자면 과녁의 중앙으로부터 조준이 비껴나간 상태를 편의라고 할 수 있고, 매번 화살이 꽂힌 자리가 사방으로 넓게 튀는 상태를 분산이라고 할 수 있다. 따라서 편의와 분산에 대해 우리는 어느 하나는 낮고 다른 하나는 크거나, 둘 다 높거나, 둘 다 낮은 상태를 모두 상상할 수 있다. 그런데 [[기계 학습|기계학습]]에서는 흥미로운 현상이 발생한다. 훈련용 데이터를 학습함에 따라서 편의는 감소하지만, 그와 동시에 분산은 점점 증가한다. 이를 달리 말하면, '''기계학습에서 편의와 분산은 결코 동시에 낮출 수 없으며, 상충되는 관계에 있다.''' 그래서 웬만큼 훈련하여 편의가 많이 줄었다 싶으면 분산이 너무 커지기 전에 훈련을 종료해야 한다.

편의와 분산의 관점에서 볼 경우, 데이터를 분류하는 방법을 제대로 학습하지 못한 분류기에서의 테스트 결과는 일정하게 나오면서도 영 엉뚱하게 나오게 된다(고편의 저분산). 이는 과소적합(underfitting) 상태로, 아직 훈련용 데이터를 제대로 배우지 못하여 어떻게 분류해야 할지를 모르는 것이다. 그 결과물은 오히려 [[휴리스틱]](heuristic)에 가까워 보이는 모습으로 나타난다. 반면 훈련을 너무 많이 받아버린 분류기는 훈련용 데이터에는 빠삭하지만 테스트 데이터와 어떻게 달라지느냐에 따라 격한 반응을 보이며 심한 변동을 보인다(저편의 고분산). 이것이 바로 과적합 상태인데, 훈련용 데이터 속의 패턴을 너무 많이 학습한 나머지 노이즈마저 함께 학습해 버린 것이다. 그렇기에 그 분류기는 오직 훈련용 데이터 하나만을 위한 분류기가 되었을 뿐, 그 이상의 [[일반화]]는 어려워지게 된다.

앞서 언급했듯, 분류 분석은 지도학습이기 때문에 분석가는 기계가 학습한 결과에 대해 '답안지' 를 들고서 '채점' 하는 것이 가능하다. 다시 말하면 과녁의 중앙이 어디인지를 분석가는 이미 알고 있으며, 기계가 쏘아보낸 화살이 어디 꽂혔는지 찾기만 하면 된다. 분류모델의 '''성과평가'''를 하는 방법으로는 몇 종류가 있지만, 그 중에서도 가장 흔히 쓰이는 성과평가 방법으로서 '''[[혼동행렬]]'''(confusion matrix)이 있다. 이는 분류기가 예측한 분류결과를 실제 현실과 함께 교차시킨 행렬을 만들어서 비교하는 방법이다. 혼동행렬과 헷갈리기 쉬운 모델 평가 방법인 '''[[리프트차트]]'''(lift chart)의 경우, 이쪽은 관측된 개별 데이터가 어떠한 집단에 속할 [[확률]]을 계산하는 예측모델이므로 일반적인 분류분석보다는 로짓분석을 활용한 분류결과의 평가에 더 적합하다.

저장 버튼을 클릭하면 당신이 기여한 내용을 CC-BY-NC-SA 2.0 KR으로 배포하고,
기여한 문서에 대한 하이퍼링크나 URL을 이용하여 저작자 표시를 하는 것으로 충분하다는 데 동의하는 것입니다.
이 동의는 철회할 수 없습니다.

분류 분석 (문단 편집)

캡챠